智能论文笔记

Diffusion-Based Representation Learning

Korbinian Abstreiter , Sarthak Mittal , Stefan Bauer , Bernhard Schölkopf , Arash Mehrjou

分类：机器学习 | 计算机视觉

2021-05-29

在连续时间域上表示为随机微分方程的基于扩散的方法最近已证明是一种非对抗性生成模型。培训此类模型依赖于denoising得分匹配，可以将其视为多尺度的Denoising自动编码器。在这里，我们扩大了Denoising分数匹配框架，以实现表示无监督信号的表示。 GAN和VAE通过将潜在代码直接转换为数据样本来学习表示形式。相比之下，引入的基于扩散的表示学习依赖于Denoisising分数匹配目标的新公式，因此编码了DeNoising所需的信息。我们说明了这种差异如何允许对表示中编码的细节级别进行手动控制。使用相同的方法，我们建议学习无限维度的潜在代码，该代码可在半监督图像分类中改善最先进的模型。我们还将扩散评分匹配的学术表示表示与自动编码器等其他方法的质量进行比较，并通过其在下游任务上的性能进行对比训练的系统。

translated by 谷歌翻译

Early prediction of the risk of ICU mortality with Deep Federated Learning

Korbinian Rand , Núria Lladós Armengol , Lena Mondrejevski , Ioanna Miliou

分类：机器学习 | 人工智能

2022-12-01

Intensive Care Units usually carry patients with a serious risk of mortality. Recent research has shown the ability of Machine Learning to indicate the patients' mortality risk and point physicians toward individuals with a heightened need for care. Nevertheless, healthcare data is often subject to privacy regulations and can therefore not be easily shared in order to build Centralized Machine Learning models that use the combined data of multiple hospitals. Federated Learning is a Machine Learning framework designed for data privacy that can be used to circumvent this problem. In this study, we evaluate the ability of deep Federated Learning to predict the risk of Intensive Care Unit mortality at an early stage. We compare the predictive performance of Federated, Centralized, and Local Machine Learning in terms of AUPRC, F1-score, and AUROC. Our results show that Federated Learning performs equally well as the centralized approach and is substantially better than the local approach, thus providing a viable solution for early Intensive Care Unit mortality prediction. In addition, we show that the prediction performance is higher when the patient history window is closer to discharge or death. Finally, we show that using the F1-score as an early stopping metric can stabilize and increase the performance of our approach for the task at hand.

translated by 谷歌翻译

What can Speech and Language Tell us About the Working Alliance in Psychotherapy

Sebastian P. Bayerl , Gabriel Roccabruna , Shammur Absar Chowdhury , Tommaso Ciulli , Morena Danieli , Korbinian Riedhammer , Giuseppe Riccardi

分类：自然语言处理

2022-06-17

我们对会话分析的问题及其在健康领域的应用感兴趣。认知行为疗法是心理疗法的结构化方法，使治疗师能够帮助患者识别和修改恶意思想，行为或行动。可以使用工作联盟库存观察者评级的缩短来评估这项合作的工作 - 12个项目涵盖任务，目标和关系 - 对治疗结果具有相关的影响。在这项工作中，我们研究了该联盟库存与患者与心理治疗师之间的口头对话（会议）之间的关系。我们已经提供了八个星期的电子疗法，收集了他们的音频和视频通话课程，并手动转录它们。专业治疗师对口语对话进行了注释和评估。我们已经调查了语音和语言特征及其与WAI项目的关联。功能类型包括转弯动力学，词汇夹带以及从语音和语言信号中提取的对话描述符。我们的发现提供了有力的证据，表明这些特征的一部分是工作联盟的强有力指标。据我们所知，这是一项针对言语和语言来表征工作联盟的第一项和新颖的研究。

translated by 谷歌翻译

Automated Evaluation of Standardized Dementia Screening Tests

Franziska Braun , Markus Förstel , Bastian Oppermann , Andreas Erzigkeit , Thomas Hillemacher , Hartmut Lehfeld , Korbinian Riedhammer

分类：自然语言处理

2022-06-13

对于痴呆症筛查和监测，标准化测试在临床常规中起着关键作用，因为它们旨在通过测量各种认知任务的性能来最大程度地降低主观性。在本文中，我们报告了一项由半标准化病史组成的研究，然后进行了两个标准化的神经心理学测试，即SKT和CERAD-NB。这些测试包括基本任务，例如命名对象，学习单词列表，以及广泛使用的工具，例如MMSE。大多数任务是在口头上执行的，因此应适用于基于成绩单的自动评分。对于第一批30例患者，我们根据手动和自动转录分析了专家手动评估与自动评估之间的相关性。对于SKT和CERAD-NB，我们都可以使用手动笔录观察到高至完美的相关性。对于某些相关性较低的任务，自动评分比人类参考更严格，因为它仅限于音频。使用自动转录，相关性降低，并且与识别精度有关；但是，我们仍然观察到高达0.98（SKT）和0.85（CERAD-NB）的高相关性。我们表明，使用单词替代方案有助于减轻识别错误，并随后改善与专家分数的相关性。

translated by 谷歌翻译

Toward Zero Oracle Word Error Rate on the Switchboard Benchmark

Arlo Faria , Adam Janin , Korbinian Riedhammer , Sidhi Adkoli

分类：自然语言处理

2022-06-13

“总机基准”是自动语音识别（ASR）研究中众所周知的测试集，为声称人类水平转录精度的系统建立了创纪录的性能。这项工作突出了该评估的鲜为人知的实际考虑，这表明了单词错误率（WER）的重大提高，通过纠正参考转录并偏离官方评分方法。在这个更详细和可再现的方案中，即使是商业ASR系统也可以评分低于5％，并且研究系统的既定记录降低到2.3％。提出了一个替代的成绩单精度指标，该指标不会惩罚缺失，并且似乎对人类与机器性能更具歧视性。尽管商业ASR系统仍低于此阈值，但研究系统被证明可以清楚地超过商业人类言语识别的准确性。这项工作还使用标准化的评分工具来探讨通过在替代方案列表中选择最佳的计算Oracle WER。将短语替代表示形式与话语级n-tesp列表和单词级数据结构进行比较。使用密集的晶格并添加量量表的单词，这使Oracle达到0.18％。

translated by 谷歌翻译

Going Beyond the Cookie Theft Picture Test: Detecting Cognitive Impairments using Acoustic Features

Franziska Braun , Andreas Erzigkeit , Hartmut Lehfeld , Thomas Hillemacher , Korbinian Riedhammer , Sebastian P. Bayerl

分类：自然语言处理

2022-06-10

标准化测试在检测认知障碍中起着至关重要的作用。先前的工作表明，使用标准化图片描述任务中的音频数据可以自动检测认知障碍。提出的研究超出了这一点，评估了我们对来自两个标准化神经心理学测试的数据，即德国SKT和德国版本的CERAD-NB，以及患者与心理学家之间的半结构化临床访谈。对于测试，我们关注三个子测试的语音记录：阅读数字（SKT 3），干扰（SKT 7）和口头流利度（Cerad-NB 1）。我们表明，标准化测试的声学特征可用于可靠地区分非受损的人的认知受损个体。此外，我们提供的证据表明，即使是从访谈的随机语音样本中提取的特征也可能是认知障碍的歧视者。在我们的基线实验中，我们使用开米的功能和支持向量机分类器。在改进的设置中，我们表明使用WAV2VEC 2.0功能，我们可以达到高达85％的精度。

translated by 谷歌翻译

The Influence of Dataset Partitioning on Dysfluency Detection Systems

Sebastian P. Bayerl , Dominik Wagner , Elmar Nöth , Tobias Bocklet , Korbinian Riedhammer

分类：自然语言处理

2022-06-07

本文经验研究了不同数据拆分和分裂策略对功能障碍检测系统性能的影响。为此，我们使用具有分类头的WAV2VEC 2.0模型以及支持向量机（SVM）以及从WAV2VEC 2.0模型中提取的功能进行实验。我们使用播客（SEP-28K）数据集中的口吃事件的不同非说明书和说话者的分裂训练和评估系统，以阐明结果W.R.T.的可变性。使用使用的分区方法。此外，我们表明SEP-28K数据集仅由少数扬声器主导，因此很难评估。为了解决这个问题，我们创建了Sep-28k扩展（Sep-28k-e），其中包含半自动生成的扬声器和性别信息，为SEP-28K语料库，建议不同的数据拆分，每个数据分配有用，可用于评估方法的其他方面用于功能障碍检测。

translated by 谷歌翻译

Detecting Dysfluencies in Stuttering Therapy Using wav2vec 2.0

Sebastian P. Bayerl , Dominik Wagner , Elmar Nöth , Korbinian Riedhammer

分类：自然语言处理

2022-04-07

口吃是一种多种言语障碍，会损害个人的沟通能力。口吃（PWS）的人经常使用语音疗法来应对自己的病情。改善具有这种非典型语音或跟踪语音疗法的人的语音识别系统将需要能够检测功能障碍的系统，同时能够检测到治疗中获得的语音技术。本文表明，用于在含有口吃的语音上结结巴巴的口吃的微调2VEC 2.0 [1]，结合多任务的学习，增强了通用Purepose Wav2VEC 2.0的有效性，以检测语音在语音中检测说话的功能;内部和跨语言。我们通过训练支持向量机分类器评估我们的FluencyBank的方法[2]和以德国治疗为中心的Kassel Fluency（KSOF）[3]数据集[3]数据集，该数据集使用六种不同结肠相关的事件类型中提取的功能：块：块：，延长，声音重复，单词重复，插入和 - 特定于治疗 - 语音修改。使用来自微调模型的嵌入式嵌入会导致相对分类的性能增长到高达27％W.R.T. F1得分。

translated by 谷歌翻译

KSoF: The Kassel State of Fluency Dataset -- A Therapy Centered Dataset of Stuttering

Sebastian P. Bayerl , Alexander Wolff von Gudenberg , Florian Hönig , Elmar Nöth , Korbinian Riedhammer

分类：自然语言处理

2022-03-10

口吃是一种复杂的言语障碍，会对个人有效沟通的能力产生负面影响。口吃（PWS）的人通常在这种情况下遭受很大的痛苦，并通过治疗寻求帮助。流利的塑形是一种治疗方法，PWSS学会修改他们的语音以帮助他们克服口吃。即使在治疗后，掌握这种语音技术也需要时间和练习。治疗后不久，对成功的评估很高，但复发率很高。为了能够长期监视语音行为，检测口吃事件和语音修改的能力可以帮助PWSS和语音病理学家跟踪流利程度。监测可以通过检测流利度的失误来提早进行干预的能力。据我们所知，没有公共数据集可用，其中包含接受口吃疗法的人的演讲，这些疗法改变了口语风格。这项工作介绍了Kassel Fluency（KSOF），这是一项基于疗法的数据集，其中包含超过5500个PWSS。这些剪辑标记为六种与口吃相关的事件类型：块，延长，声音重复，单词重复，插入和 - 特定于治疗 - 语音修改。音频是在Kasseler Stottertherapie研究所期间记录的。该数据将根据要求提供用于研究目的。

translated by 谷歌翻译

Detecting Emotion Carriers by Combining Acoustic and Lexical Representations

Sebastian P. Bayerl , Aniruddha Tammewar , Korbinian Riedhammer , Giuseppe Riccardi

分类：自然语言处理 | 人工智能

2021-12-13

个人叙述（PN） - 口语或书面 - 来自自己经验的事实，人，活动和思想的回忆。情感识别和情感分析任务通常在话语或文档级别定义。然而，在这项工作中，我们专注于情感载体（EC）定义为最佳解释叙述者的情绪状态（“父亲失去”，“让我选择”）。一旦提取，这种EC可以提供用户状态的更丰富表示以改善自然语言理解和对话建模。在以前的工作中，已经表明可以使用词法特征来识别EC。但是，口语叙述应该提供对背景的更丰富的描述和用户的情绪状态。在本文中，我们利用基于文字的声学和文本嵌入以及早期和晚期融合技术，用于检测口语叙述中的ECS。对于声学词级表示，我们使用在单独的语音情绪上进行剩余的剩余神经网络（Reset）并进行微调以检测EC。不同融合和系统组合策略的实验表明，晚期融合导致这项任务的重大改进。

translated by 谷歌翻译